张和平团队突破:利用人工智能快速筛选益生菌 | 热心肠日报
今天是第2019期日报。
张和平+张文羿+左永春:机器学习平台iProbiotics助力益生菌快速筛选
Briefings in Bioinformatics[IF:11.622]
① 从益生菌数据库(PROBIO)和文献检索到239个益生菌和412个非益生菌菌株基因组序列,对其进行k-mer(2-8)分析,识别到益生菌多于非益生菌基因组特征(P-特征);② 筛出184个核心特征构建模型,10倍交叉验证中预测精度和AUC值达97.77%,98.00%;③ 对多个数据库注释及宿主胃肠道存活和碳水化合物利用基因分析,发现P-特征偏向益生菌功能相关基因/途径分布;④ 分析核心K-mers耐药和毒力因子编码基因,发现益生菌效应由K-mer基因组组合决定。
iProbiotics: a machine learning platform for rapid identification of probiotic properties from whole-genome primary sequences
11-27, doi: 10.1093/bib/bbab477
【主编评语】益生菌的发现和实验验证需要大量的时间和精力,因此,开发有效的益生菌筛选方法具有重要意义。内蒙古农业大学张和平、张文羿和左永春作为共同通讯作者,在Briefings in Bioinformatics发表研究,开发了一个基于机器学习算法的平台,一种新颖且免费的在线生物信息学工具 iProbiotics,用于从可用的全基因组测序数据中预测益生菌特征,它将促进益生菌的快速筛选。作者构建了三个独立模型,其可在 http://bib.oxfordjournals.org/ 上在线获得,作者的研究结果为益生菌的鉴定和潜在机制提供了新的见解。(@刘永鑫-中科院-宏基因组)
陈卫华+赵兴明+赫丽杰:实现疾病标志物识别和跨数据集比较的人类肠道菌群数据库GMrepo v2
Nucleic Acids Research[IF:16.971]
① GMrepo v2(肠道菌群的数据存储库) 包含 353 个项目和 71,642 个测序样本,与之前的版本相比显著增加;② 这些样本中,分别通过 16S rRNA基因扩增子和随机宏基因组测序获得 45,111 和 26,531 个,表型数量从 92 个增加到 133 个,还引入疾病标志物识别和跨项目/表型比较;③ 首先为选定的项目确定两种表型(例如健康与疾病)之间的疾病标志物,然后比较跨数据集的每个表型对的已识别标记,并提供一个以标记为中心的视图。
GMrepo v2: a curated human gut microbiome database with special focus on disease markers and cross-dataset comparison
11-12, doi: 10.1093/nar/gkab1019
【主编评语】GMrepo 是一个精心设计和一致注释的人类肠道宏基因组数据库,其主要目的是提高人类肠道宏基因组数据的可重用性和可访问性,并实现跨项目和表型比较。华中科技大学陈卫华、复旦大学赵兴明、中国医科大学人民医院赫丽杰作为共同通讯作者,在Nucleic Acids Research发表文章,介绍了 GMrepo 的更新版本GMrepo v2,在这个新版本中,作者收集了更多的项目、运行/样本和表型。最重要的是,作者添加了疾病标记识别和已识别标记的跨项目/表型比较。GMrepo v2 可在以下网址免费获得:https://gmrepo.humangut.info。(@刘永鑫-中科院-宏基因组)
国内团队:用于菌群关联分析的R包-MZINBVA
Briefings in Bioinformatics[IF:11.622]
① 本研究综述了分析稀疏和相关菌群数据的统计方法,并扩展了零膨胀负二项式 (ZINB)模型以对零膨胀和多级菌群计数数据进行关联分析;② 作者提出了一种用于模型拟合和推理的变分近似(VA) 算法 MZINBVA,它提供了参数估计协方差的稳健评估,并为关联测试构建了 Wald 型检验统计量;③ 作者证明了 VA 是惩罚准似然 (PQL) 算法、Laplace近似和随机近似的一种有效且有吸引力的替代方法,用于基于似然的推理。
MZINBVA: variational approximation for multilevel zero-inflated negative-binomial models for association analysis in microbiome surveys
10-26, doi: 10.1093/bib/bbab443
【主编评语】上海交通大学王涛团队近期在Briefings in Bioinformatics发表文章,提出了用于菌群研究中关联分析的多级零膨胀负二项式模型,开发了一种用于最大似然估计和推理的变分逼近方法,其使用优化而不是抽样来近似对数似然和计算参数估计,提供参数估计协方差的稳健估计,并构建用于关联测试的 Wald 型检验统计量。作者开发了一个 R 包 MZINBVA 来实现所提出的方法,可从 GitHub 资源库 https://github.com/liudoubletian/MZINBVA 上获得。(@刘永鑫-中科院-宏基因组)
中国农大团队:鸡肠道菌群的参考基因组和基因集用于解析耐药基因
Communications Biology[IF:6.268]
① 该研究对来自中国和欧洲共十个国家的799个鸡肠道菌群宏基因组数据进行了整合分析;② 组装获得了12339个菌株水平的参考基因组,涵盖1978个物种;③ 通过物种注释发现893个可能的新种和38个可能的新属,最普遍的是鸟乳杆菌和卷曲乳杆菌;④ 研究进一步构建了一个含有1660万个非冗余基因的鸡肠道菌群参考基因集;⑤ 通过对基因功能注释发现,与欧洲来源的鸡相比,中国来源的鸡肠道菌群中含有的耐药基因丰度相对较高,但多样性较低。
Metagenome-assembled genomes and gene catalog from the chicken gut microbiome aid in deciphering antibiotic resistomes
11-18, doi: 10.1038/s42003-021-02827-2
【主编评语】中国农业大学胡永飞团队在Communications Biology发表研究,结合来自中国和欧洲国家的鸡肠道菌群的宏基因组数据,构建了一个完整的鸡肠道菌群参考基因集和基因组集,并使用多种生物信息学工具和数据库对组装的基因和基因组集进行了注释和分析,同时还使用新组装的宏基因组组装基因组 (MAGs)和基因集对鸡肠道菌群中的耐药基因 (ARGs)进行了分析,并比较了鸡和人类肠道抗生素抗性组。这些整合的基因和基因组集资源对于更好地了解鸡肠道菌群的结构和功能至关重要。本研究提供了迄今为止最大的鸡肠道整合宏基因组数据集,并证明了其在探索鸡肠道菌群基因方面的价值。(@刘永鑫-中科院-宏基因组)
Nature子刊:纳米孔测序技术、生物信息学及应用(综述)
Nature Biotechnology[IF:54.908]
① 本文详细介绍了纳米孔测序技术的原理及发展并详述了其测序建库流程;② 进一步,作者概述了基于牛津纳米孔技术(ONT)测序数据的生物信息学分析模块;③ 作者基于对近些年已发表文章的系统统计,详述了ONT测序在11个主要方面的应用;④ 最后,作者指出了未来ONT测序需要改进的层面:更高的测序准确性(>99%)、更长的测序长度 (Megabase)、降低测序所需的DNA和RNA样品量。
Nanopore sequencing technology, bioinformatics and applications
11-08, doi: 10.1038/s41587-021-01108-x
【主编评语】2021年11月8日,美国俄亥俄州立大学(Ohio State University)区健辉(Kin Fai Au)研究组在Nature Biotechnology在线发表综述论文Nanopore sequencing technology, bioinformatics and applications,该文章系统全面地回顾总结了纳米孔测序技术的发展历史、技术原理、数据特征、生物信息学分析方法以及广泛的应用, 同时也指出了目前存在的问题。(@刘永鑫-中科院-宏基因组)
16S rRNA基因数据的变异识别软件HashSeq
mSystems[IF:6.496]
① 在这项研究中,研究人员利用基于 HashMap 的快速方法来检测六个公开可用的16S rRNA基因数据集中的序列变体;② 使用正态分布结合局部估计的散点图平滑 (LOESS) 回归来估计背景错误率,作为单个序列簇的测序深度的函数;③ 这种方法在计算上是高效的,并且产生的推理产生了保守的并且被参考数据库很好地支持的变体集;④ 这种推理方法快速、简单且可扩展到大型数据集,并提供了一组高分辨率的序列变体,这些变体不太可能是测序错误的结果。
HashSeq: a Simple, Scalable, and Conservative Variant Caller for 16S rRNA Gene Data Sets
11-09, doi: 10.1128/mSystems.00697-21
【主编评语】本文中作者介绍了一种快速且可扩展的算法-HashSeq,该算法基于作为测序深度函数的正态分布背景误差的估计来推断序列变体。作者的流程具备有吸引力的性能特征,可以独立使用或与其他变体识别程序联合使用,并为每个变体提供明确的 P 值来评估变体是由测序错误引起的可能性。(@刘永鑫-中科院-宏基因组)
肠道菌群的定向高斯混合模型阐明微生物空间结构
mSystems[IF:6.496]
① 本研究提出了一类混合成分之间具有空间依赖性的高斯混合模型(GMM),以便在计算上恢复菌群的相对空间排列;② 在盲肠和远端结肠数据集上,作者发现该模型准确地概括了肠道菌群的已知空间行为,包括粘液和腔相关群体之间的组成差异;③ 作者的模型似乎也捕捉到了 pH 梯度对小鼠回肠中菌群的作用,并提出了新的行为;④ 作者为所有数据集中存在空间结构提供了强有力的证据,具有明显的区域特征。
Directional Gaussian Mixture Models of the Gut Microbiome Elucidate Microbial Spatial Structure
11-09, doi: 10.1128/mSystems.00817-21
【主编评语】作者开发了一类计算模型,以从 MaPS-seq 数据中恢复肠道菌群生物地理学的已知特征,其模型建立在经典的高斯混合模型(GMM)之上,该方法采用微生物空间数据并学习许多经过实验验证的空间因素。作者的研究结果表明,肠道菌群虽然异常庞大,但具有可预测的空间模式,可用于帮助了解其在健康和疾病中的作用。作者表明,其提出的模型恢复了胃肠道内菌群的已知生物学行为,同时还提供了对肠道菌群空间结构的新见解。(@刘永鑫-中科院-宏基因组)
ARTS-DB:抗生素抗性靶标数据库
Nucleic Acids Research[IF:16.971]
① 抗生素抗性靶标搜寻器(ARTS)数据库使用靶向基因组挖掘(TDGM )方法,优先考虑编码潜在新型抗生素的生物合成基因簇(BGC);② ARTS数据库提供了超过 70,000 个基因组和宏基因组组装基因组的预先计算的 ARTS 结果;③ 高级搜索查询允许用户快速探索 TDGM 的基本标准,例如基本管家基因的 BGC 邻近、复制和水平基因转移;④ 此外,ARTS 数据库提供了整个细菌界相互关联的结果,以及与天然产物研究中已知数据库的链接。
ARTS-DB: a database for antibiotic resistant targets
10-28, doi: 10.1093/nar/gkab940
【主编评语】本文中作者展示了 抗生素抗性靶标搜寻器(ARTS) 数据库,这是一个综合性存储库,包含来自 NCBI 的 RefSeq 和 GEM 目录的高质量细菌基因组集,并使用靶向基因组挖掘(TDGM )策略进行处理。ARTS 数据库允许研究人员快速访问预先计算的 ARTS 结果并通过更广泛的视野探索细菌界。作者相信 ARTS 数据库将成为寻找新型天然产物的重要资源。ARTS 数据库可在 https://arts-db.ziemertlab.com/ 上在线公开访问,没有访问限制。(@刘永鑫-中科院-宏基因组)
新型多重扩增子测序法可实现污水中新冠病毒RNA的精确定量
Environmental Science & Technology Letters[IF:7.653]
① ATOPlex 是华大智造(MGI)开发的多重PCR技术平台,通过使用多重混合引物捕获新冠病毒全基因组序列信息,可实现对低浓度病毒的富集和高通量测序;② ATOPlex技术比常规的RT-qPCR更加灵敏,可实现更灵敏的病毒定量,可以更灵敏地检测污水中低浓度的病毒;③ RT-qPCR只能给出定量信息,然而ATOPlex测序技术能够尽可能的恢复病毒的基因组信息,从而准确、快速的对病毒变种进行溯源。
Novel Multiplexed Amplicon-Based Sequencing to Quantify SARS-CoV-2 RNA from Wastewater
07-08, doi: 10.1021/acs.estlett.1c00408
【主编评语】澳大利亚昆士兰大学郭建华在Environmental Science & Technology Letters发表文章,介绍了一种基于多重扩增子的测序方法(Multiplexed Amplicon-based Sequencing) 来实现城市污水中SARS-CoV-2 RNA的精确检测,和常规的RT-qPCR相比,该方法不仅能够对新冠病毒进行高灵敏度检测,还能准确获取病毒载量信息和病毒基因组信息,利用这些信息可以对城市疫情流行程度进行判断并对大流行的新冠病毒变种进行溯源。此外,研究结果表明城市污水中的固相悬浮物或颗粒物中亦含有大量的SARS-CoV-2 RNA。该研究有望进一步推进基于污水流行病学在公共卫生应急方面的应用。(@刘永鑫-中科院-宏基因组)
感谢本期日报的创作者:九卿臣,白蓝木,刘永鑫-中科院-宏基因组,湖人总冠军
点击阅读过去10天的日报:
1203 |王军军等Microbiome:猪断纤维,菌不聊生,木聚糖来相助!
1202 | 兰平+何真等Microbiome:锁定肠系膜脂肪的促炎细菌
1130 | 傅静远等Cell子刊:深度解码菌群基因结构变异与胆汁酸代谢
1129 | 改造细菌以抗癌,上海交大刘尽尧团队NC发新突破
1126 | 今日Science重要综述:肠脑之间的炎症信号
1125 | Nature双发:菌群怎毁降糖药效+中国减脂研究新突破
1124 | 中农大连发2篇Microbiome:深度解码蜂肠菌
点击阅读原文,查看更多热心肠日报的内容